A természetes beszéd automatikus szöveggé konvertálása még mindig jelentős kihívás, ha a beszélők szétválasztása, az írásjelezés, névelemek tag-elése, az idegen nyelvű kifejezések felismerés és a zajban is nagy pontosság a követelmények között van. Noha a klasszikus/neurális nyelvmodellek alkalmazása alapvetőnek számít ezen a területen, a (nagyon) nagy nyelvi modellek (LLM-ek, pl. GPT-4, ChatGPT, LLAMA, BARD, stb.) felhasználása egyáltalán nem magától értetődő. A hallgató feladat feltárni a közvetlen, beszéd-szöveg konverziót segítő és az utólagos (pl. korrekciós) LLM alkalmazásokat. A téma diplomatervig - és azon túl is - továbbvihető.
Converting natural speech into text remains a significant challenge when requirements include speaker separation, punctuation, named entity tagging, recognition of foreign language expressions, and high accuracy even in noisy environments. While the application of classical/neural language models is fundamental in this domain, the use of (very) large language models (LLMs, e.g., GPT-4, ChatGPT, LLAMA, BARD, etc.) is far from straightforward. The task for the student is to explore both direct applications of LLMs in supporting speech-to-text conversion and their use in post-processing (e.g., correction). This topic can be extended to a thesis project - and beyond.